導(dǎo)讀:搜索引擎就是一種程序,自動(dòng)從因特網(wǎng)搜集信息,經(jīng)過(guò)一定整理以后,提供給用戶(hù)進(jìn)行查詢(xún)的系統(tǒng)。搜索引擎可以分為:百度蜘蛛: Baiduspider , 360蜘蛛:360spider ,谷歌蜘蛛:geoglebot等。搜
發(fā)表日期:2020-01-25
文章編輯:興田科技
瀏覽次數(shù):6715
標(biāo)簽:
搜索引擎就是一種程序,自動(dòng)從因特網(wǎng)搜集信息,經(jīng)過(guò)一定整理以后,提供給用戶(hù)進(jìn)行查詢(xún)的系統(tǒng)。搜索引擎可以分為:百度蜘蛛: Baiduspider , 360蜘蛛:360spider ,谷歌蜘蛛:geoglebot等。
搜索引擎的工作原理一般來(lái)說(shuō)可以分為四步來(lái)完成,抓取,過(guò)濾,存取,排序。
1.抓取,搜索引擎順著網(wǎng)頁(yè)中的超鏈接在互聯(lián)網(wǎng)中發(fā)現(xiàn),搜索網(wǎng)頁(yè)信息,然后再抓取里面的內(nèi)容。從抓取的方式來(lái)看,可以分為深度抓取和廣度抓取。深度抓取就是搜索引擎沿著網(wǎng)站的內(nèi)部結(jié)構(gòu)進(jìn)行抓取,比如先抓取頁(yè),再抓取欄目頁(yè),然后再抓取詳情頁(yè),就象樹(shù)形結(jié)構(gòu)一樣,先到主干,然后到樹(shù)枝,再到枝稍。一般結(jié)構(gòu)超過(guò)三層,就不利于搜索引擎抓取了。不利于搜索引擎抓取和內(nèi)容有JS,圖片,視頻,iframe框架,以及層級(jí)多的嵌套。
2.過(guò)濾,搜索引擎抓取了網(wǎng)頁(yè)上的信息以后,就會(huì)把數(shù)據(jù)存放入臨時(shí)數(shù)據(jù)庫(kù)。然后搜索引擎把一些低質(zhì)量的頁(yè)面,比如采集來(lái)的,沒(méi)有豐富內(nèi)容的,文不對(duì)題的頁(yè)面過(guò)濾掉。把它們當(dāng)作垃圾一樣,處理掉了。
3.存儲(chǔ),搜索引擎對(duì)一些高質(zhì)量的,對(duì)用戶(hù)有價(jià)值的,符合用戶(hù)體驗(yàn)的內(nèi)容就把它們存放在數(shù)據(jù)庫(kù)中。以方便用戶(hù)進(jìn)行搜索查詢(xún)進(jìn),隨時(shí)可以調(diào)取。
4.排序,檢索器根據(jù)用戶(hù)輸入的查詢(xún)的關(guān)鍵詞在索引庫(kù)中快速檢出文檔,進(jìn)行文檔與查詢(xún)的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序。當(dāng)我們看到在搜索引擎看到的只是一種強(qiáng)果,搜索引擎根據(jù)各種算法,把某個(gè)關(guān)鍵詞的展現(xiàn)在頁(yè)的位。
更多新聞
2022
想要建站的站長(zhǎng)們想必都了解,網(wǎng)站建設(shè)包含了許多內(nèi)容,標(biāo)簽優(yōu)化、導(dǎo)航欄目、關(guān)鍵詞結(jié)構(gòu)、軟文編撰、文章更...
View details
2022
零基礎(chǔ)學(xué)習(xí)SEO到底困不困難呢?這個(gè)問(wèn)題沒(méi)有嚴(yán)格標(biāo)準(zhǔn)的答案。世上無(wú)難事只怕有心人,把準(zhǔn)備考好大學(xué)的態(tài)...
View details
2022
大部分站長(zhǎng)都希望自己網(wǎng)站權(quán)重更高一些,因?yàn)榫W(wǎng)站權(quán)重直接影響網(wǎng)站的收藏和排名,但新的網(wǎng)站難以做到這一點(diǎn)...
View details
2022
網(wǎng)站優(yōu)化需要明確搜索引擎優(yōu)化的方向,即搜索引擎喜歡什么樣的網(wǎng)站。當(dāng)網(wǎng)站優(yōu)化人員確定搜索引擎喜歡什么樣...
View details